Intelligences artificielles, les mille et une façons de les faire dérailler

Et si l’année 2023 n’avait pas été une année si glorieuse pour l’intelligence artificielle (IA), mais bien au contraire un véritable cauchemar ? Le constat, surprenant, se justifie pourtant au regard d’une vaste production de travaux académiques qui démontrent que ces logiciels portés aux nues sont en réalité très fragiles et faciles à tromper, à détourner, à faire dérailler, voire à anéantir…

En un an, depuis janvier 2023, plus de deux cents preprints ont été déposés sur le site Arxiv.org proposant des attaques, contre-attaques, détournements ou autres jailbreaks, un terme consacré désignant l’exploit de faire sauter les verrous des IA. Un raz de marée qui pourrait bien entamer le capital confiance d’outils comme ChatGPT, Bard, Midjourney…

Depuis les débuts de l’informatique, la même histoire de chat et de souris se répète. Des « pirates » trouvent des failles dans les systèmes, qui sont corrigées, jusqu’à ce que de nouvelles soient trouvées.

« Je vois mon activité comme un mélange de recherche, de hacking et de jeu, résume Florian Tramèr, professeur à l’Ecole polytechnique fédérale (ETH) de Zurich (Suisse), un prolifique chercheur en sécurité des systèmes d’apprentissage machine. Mais aujourd’hui, le “jeu” devient très sérieux, car il concerne des produits utilisés par des millions de personnes. Et on peut s’inquiéter de ces déploiements rapides. » « Les concepteurs ont l’air d’être au courant des problèmes mais continuent d’avancer. Et quand je vois qu’on commence à connecter ces programmes à d’autres applications ayant accès à nos données personnelles, ma température monte », alerte Johann Rehberger, spécialiste de la sécurité chez l’éditeur américain de jeux vidéo Electronic Arts, auteur de plusieurs « attaques » sur les ChatGPT, Bard et autres Bing Chat.

Cette communauté, majoritairement universitaire, heureuse d’être sur un terrain demandant moins de moyens que pour développer de nouvelles IA, est assimilée aux « bons » pirates, qui améliorent la sécurité de ces technologies et préviennent les fabricants avant d’exposer leur méthode. Mais il existe aussi de « mauvais » pirates, qui détournent des outils d’IA, auxquels a été consacrée une étude de l’université de l’Indiana, à Bloomington, publiée le 6 janvier. Plusieurs « services » proposent de fabriquer des virus informatiques, de rédiger des spams alléchants, de faire de l’hameçonnage de données personnelles, de réaliser des sites Web trompeurs, de générer des images violentes, sexistes, racistes…